# -*- coding: utf-8 -*-
"""
Created on Mon Sep 13 18:57:17 2021
@author: 86157
"""


#需要的库，导入时间库为了慢慢爬取网站上的信息，以免平台弹出拦截
import requests as rq
import re
from time import sleep

#伪装浏览器
header = {'User-Agent':'Chrome/86.0.4240.198'}

range = [0,10,20,30,40,50,60,70,80,90] #榜单每一页有10部电影，设置获取每一页的电影
L=[] #设置空列表存放爬取的所有数据
for i in range:
    url = 'https://maoyan.com/board/4?offset='+str(i) #爬取URl,在页码数上面进行爬取，总共有100部电影分为10页，同等于i的个数为10，进行一页一页的获取
    sources = rq.get(url,headers = header) #获取网页源代码
    type(sources)
    data = sources.text #网页源代码

    #从网页源代码挖掘所要数据 --- 正则表达式获取
    p = r'<dd>.*?board-index.*?>(.*?)</i>.*?src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?score.*?i.*?>(.*?)</i>.*?i.*?>(.*?)</i>.*?</dd>'
    #p = r'<dd>.*?board-index.*?>(.*?)</i>.*?src="(.*?)".*?name.*?a.*?>(.*?)</a>'
    pat = re.compile(p,re.S) #忽略换行符
    wj_data = pat.findall(data)
    L = L + wj_data
    sleep(25) #设置获取数据的时间
    
    
